基本信息
- 标题: Evaluating Large Language Models Trained on Code
- 作者: Mark Chen、Jerry Tworek、Heewoo Jun、Qiming Yuan等
- 作者单位: OpenAI, Anthropic AI, Zipline
- 期刊/会议: arXiv
- 发表时间: 2021年7月14日
- DOI: 2107.03374
- 开源地址: GitHub
- 关键词: 代码生成, 代码评估, 代码理解
研究背景 (Background)
OpenAI在GPT3发布的时候,就已经可以通过文档(docstrings)生成python代码了。本篇文章假定有一个大规模的语言模型,Codex,可以生成代码,作者希望通过这篇文章来评估Codex的性能。
研究问题 (Research Questions)
本文旨在设定一个评估指标和方法来对模型(假定Codex)生成Python代码的能力进行评估。
方法与模型 (Methods & Models)
- 研究方法:
简述本文采用的方法或提出的模型。
- 实验设计:
描述实验设计的基本要点,如数据集、实验设置等。
核心贡献 (Key Contributions)
总结本文的主要贡献点:
1.
2.
3.
实验结果 (Results)
概述实验的关键结果和作者的主要发现。
参考文献 (References)
列举一些重要的参考文献
备注 (Notes)
- 论文提到一个现象(Introduction),12B的Codex可以解决28.8%的问题,而300M的Codex只能解决13.2的问题。这是为什么?
优点与创新点 (Strengths)
列出本文的优点和创新点:
1.
2.
局限性与不足 (Limitations)
列出本文的局限性和不足:
1.
2.
我的思考 (Personal Thoughts)
- 本文与我研究的相关性:
- 是否有可以改进的地方:
- 后续可能的研究方向: